在研究 LLM 相關的授權條款時,主要有三個方向:程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案,會將這三種東西的授權設定成不同的授權,而有些專案甚至會另外寫一份特別的授權條款。在我們自由研究的階段,可能還不用太在意 License 的問題,但如果當一個專案要準備要公開或商用時,瞭解授權條款來保障彼此的權益,是一個相當重要的課題。
今天就從 LLM 的角度出發,來看看授權條款的相關議題。
在談論授權 (License) 之前,可以先來瞭解著作權 (Copyright) 是什麼。著作權是智慧財產權 (Intellectual Property) 的一種,在智慧財產權底下還有商標、專利等等。著作權主要在保障作者與作品的權利,他人未經授權不能任意複製、修改、散布等等。
如果想要使用別人的程式碼,那就會需要對方的授權。開發者通常會放一個 LICENSE 檔案在專案裡面,描述他是如何授權程式碼給大家用的。但即便有了作者的授權,也不代表擁有該作品的著作權。
在 GitHub 瀏覽專案時,可以點進 LICENSE 檔案裡面,如果是常見的授權條款,網頁上面就會很貼心的幫你條列這個條款的一些重點:
在 HF Hub 上面瀏覽模型或資料集時,左邊的 Filter 也有很多 License 可以選:
種類真的超級多!
MIT 是源自麻省理工學院 (Massachusetts Institute of Technology, MIT) 的一種授權條款,是常見的授權條款裡面規範最寬鬆的一條。任何人都可以免費的複製、修改、再發布,只需要在程式碼的副本處放上一個 MIT License 檔案就好,你的整份專案還是可以用其他 License 或者商用等等。
像是 Ruby on Rails 框架與 VS Code 文字編輯器等專案,皆是使用 MIT 授權條款。
GPL (GNU General Public License) 是自由軟體基金會 (Free Software Foundation, FSF) 製作的授權條款,這個條款雖然同樣可以修改與商用,但是要求使用者必須使用相同的授權條款,而且必須跟著開源。在第一版 LLaMA 模型釋出時,就是使用 GPL 授權條款。
因為必須使用相同的授權條款且開源,所以 GPL 專案比較難在閉源的商用專案裡面使用。於是後來出現了 LGPL (GNU Lesser General Public License) 授權條款,如果只是引用該專案的話,並不需要開源或使用相同授權。但如果有修改該專案的話則不適用,也必須跟著開源與使用相同授權。
像是 GCC 編譯器與 VLC 播放器等專案,都是使用 GPL 授權條款。
Apache 由 Apache 軟體基金會所製作,也是個滿寬鬆的授權條款。Apache 條款要求必須標注有修改的部份,也不能用原專案的商標或名稱來推廣衍生專案。
像是 Hugging Face 的 Transformers 框架與 Google 的 Tensorflow 框架等專案,就是使用 Apache 2.0 授權條款。
BSD (Berkeley Software Distribution) 源自加州大學柏克萊分校 (UC Berkeley),也是個可以自由複製、修改與商用的授權條款。BSD 原本有四條規定,被稱為 BSD 4-Clause,但是因為第四條要求衍生專案必須附上貢獻者名單,很多人覺得很麻煩,於是後來出現了把第四條移除的 BSD 3-Clause。
像是 Numpy 數學運算套件與 Django 後端框架等專案,也是 BSD 授權條款。
以上介紹的授權條款通常都是用在程式碼專案上面,而 CC (Creative Commons) 條款主要針對圖文創作,其中像是訓練資料集就經常使用 CC 條款。在 CC 條款底下還有很多種類,包含:
所以像是 CC-BY-SA 就是必須附上作者資訊與使用相同授權條款,CC-BY-NC 則是除了需要附上作者名稱之外,還不可以商用的條款。而 CC0 則是代表作者完全放棄他的著作權,其他人想做複製修改都可以。
機器學習的模型權重又跟程式碼和資料集不太一樣了,在模型上更講究「責任歸屬」的問題,因為多數的 ML 模型都是在做預測,然而預測沒有 100% 正確的。若實際運作時模型出了問題,那責任該如何歸屬?另外,如果有人拿這個模型去做壞事,那模型的作者是否該負起責任?事實上這個議題相當複雜,時至今日還是經常產生訴訟糾紛。
於是 OpenRAIL 誕生了,全名為 Open & Responsible AI License,同樣可以讓大家複製、修改和商用等等,同時也要求使用者必須負起責任,不可以拿來做壞事。如果因為不當使用導致你被抓、被罰款,那模型開發者是不需要負責的。
這個授權條款的目的,是為了降低模型開發者會遇到的法律風險。另外也有 BLOOM 的 BigScience OpenRAIL-m 或 Stable Diffusion 的 CreativeML Open RAIL-M 等不同的版本,也都是類似的聲明。
第一版的 LLaMA 使用 GPL 授權條款,是比較讓人傷腦筋的授權,許多與 LLaMA 相關的衍生模型,都是使用 Delta Weight 或 LoRA Adapter 的形式釋出。為了調用這些模型,經常需要使用各種不同工具做合併,很麻煩也很耗時。
後來 Llama 2 推出之後,使用了全新的 Llama2 License,這個授權條款讓大家也能複製、修改、再發布等等。這樣大家就不用再畏畏縮縮的,可以直接把微調過的 Llama2-Based 模型權重整個釋出。
在 Llama2 License 中有個有趣的附加商業條款,規定如果使用此模型的服務提供者,月活躍用戶超過七億的話,必須向 Meta 請求額外的許可。
七億欸我的老天鵝!全地球也就七八十億人,到底有哪個服務的月活躍用戶數可以到全球的 10% 啊?大概也只有 Facebook 或 Google 這種超級大公司才有吧。
AI 領域相對於人類歷史而言,是個相當新穎的領域,也因此誕生了許多爭議。像是 GitHub Copilot 去年年底就被提出訴訟,但微軟與 OpenAI 認為 GitHub Copilot 並沒有造成傷害,例如 GitHub Copilot 實際上如何侵害了誰的程式碼等等。
今天年初 Getty Images 控告 Stability AI 將他們網站的圖片用於訓練與營利,已經違反他們的版權規定,甚至生成的圖片上面還有 Getty Images 的浮水印。
七月時也有許多作家連署要求,大公司在訓練 AI 時若有用到他們的作品,應該取得同意並給予適當的補償。八月時有人發現 Books3 資料集裡面包含了許多受版權保護的書籍,這是許多模型都有拿來用的資料集,使得這些與訓練資料版權相關的訴訟隨著 AI 的活躍而跟著增長。
前陣子美國著作權局也為了生成式 AI 衍生的版權問題徵求公眾意見,這些訴訟與事件都是相當值得關注的,整個 AI 從訓練到使用,都涉及了非常多版權問題,這些訴訟的判決結果也將左右未來 AI 的開發政策與走向。
今天介紹了一些常見的授權條款,與 AI 面臨的訴訟爭議。身為一個現代的資訊使用者,培養基礎的版權觀念相當重要。在處理海量的訓練資料時,確實很難顧及到每個角落,使每份文本或圖片都是沒有爭議的。
筆者相信,許多開發者都是立意良善,基於熱愛研究與分享的心情在開源自己的成果,這些工具通常是在解決人與機器之間的問題。但是當一份專案走出自己的研究,成為可以被公眾檢視的產品時,就會衍生出許多人與人之間的問題。偏偏社恐如筆者,就是不擅長與人溝通 🥲
最後期許大家,都能當個負責任的 AI 使用者,不要拿 AI 去做壞事,而是用 AI 讓這個世界變得更美好 🤗